可以与其他代理人互动以完成给定任务的自主代理的发展是人工智能和机器学习研究的核心领域。为了实现这一目标,自主代理研究小组开发了用于自主系统控制的新型机器学习算法,特别关注深度强化学习和多代理强化学习。研究问题包括可扩展的协调代理政策和代理间沟通;从有限观察的情况下对其他代理的行为,目标和组成的推理;以及基于内在动机,课程学习,因果推断和代表性学习的样品学习。本文概述了该小组正在进行的研究组合,并讨论了未来方向的开放问题。
translated by 谷歌翻译
在现实世界的机器人技术应用中,强化学习(RL)代理通常无法推广到训练过程中未观察到的环境变化。对于基于图像的RL而言,此问题已加强,其中一个变量(例如背景颜色)的更改可以更改图像中的许多像素,并且又可以改变图像代理的内部表示中的所有值。为了了解更多可靠的表示形式,我们引入了时间分离(TED),这是一项自制的辅助任务,可通过RL观察的顺序性质导致分离表示表示。我们从经验上发现,与最先进的表示方法相比,使用TED作为辅助任务的RL算法更快地适应了通过持续培训的环境变量的变化。由于表示形式的分解结构,我们还发现,经过TED训练的策略可以更好地概括地看不见的变量值与任务无关(例如背景颜色)以及影响最佳策略(例如目标目标位置)的变量值的看不见值。
translated by 谷歌翻译